1
Confronto tra paradigmi di utilizzo dei dati: lo spettro dell'etichettatura
EvoClass-AI003Lezione 10
00:00

Confronto tra paradigmi di utilizzo dei dati: lo spettro dell'etichettatura

Il successo nel deploy di modelli di apprendimento automatico dipende criticamente dalla disponibilità, qualità e costo dei dati etichettati. In ambienti dove l'annotazione umana è costosa, impossibile o altamente specializzata, i paradigmi standard diventano inefficienti o falliscono del tutto. Presentiamo lo spettro dell'etichettatura, distinguendo tre approcci fondamentali in base a come sfruttano le informazioni:Apprendimento supervisionato (SL), Apprendimento non supervisionato (UL), e Apprendimento semi-supervisionato (SSL).

1. Apprendimento supervisionato (SL): Alta fedeltà, alto costo

SL opera su dataset in cui ogni input $X$ è esplicitamente accoppiato a un'etichetta di riferimento nota $Y$. Sebbene questo approccio raggiunga tipicamente la massima accuratezza predittiva per compiti di classificazione o regressione, la sua dipendenza da etichettature dense e di alta qualità è molto costosa in termini di risorse. Le prestazioni peggiorano drasticamente se gli esempi etichettati sono scarsi, rendendo questo paradigma fragile e spesso economicamente insostenibile per dataset massivi e in evoluzione.

2. Apprendimento non supervisionato (UL): Scoperta della struttura latente

UL opera esclusivamente su dati non etichettati, $D = \{X_1, X_2, ..., X_n\}$. Il suo obiettivo è inferire strutture intrinseche, distribuzioni di probabilità sottostanti, densità o rappresentazioni significative all'interno del manifold dei dati. Applicazioni chiave includono il clustering, l'apprendimento di manifold e l'apprendimento di rappresentazioni. UL è estremamente efficace per il preprocessing e l'engineering delle caratteristiche, fornendo intuizioni preziose senza alcuna dipendenza da input umani esterni.

Domanda 1
Quale paradigma di apprendimento è progettato specificamente per mitigare la forte dipendenza dall'annotazione umana costosa sfruttando dati non etichettati abbondanti?
Apprendimento supervisionato
Apprendimento non supervisionato
Apprendimento semi-supervisionato
Apprendimento per rinforzo
Domanda 2
Se il compito principale di un modello è la riduzione della dimensionalità (ad esempio, trovare i componenti principali) o il clustering, quale paradigma è universalmente impiegato?
Apprendimento supervisionato
Apprendimento semi-supervisionato
Apprendimento non supervisionato
Apprendimento trasferito
Sfida: Definire l'obiettivo di SSL
Concepire la funzione di perdita combinata
A differenza del SL, che ottimizza solo sulla fedeltà dei dati etichettati, SSL richiede una strategia di ottimizzazione bilanciata. La perdita totale deve catturare l'accuratezza delle previsioni sul set etichettato, mantenendo contemporaneamente la coerenza (ad esempio, regolarità o separazione di bassa densità) sul set non etichettato.

Dati: $D_L$: Dati etichettati. $D_U$: Dati non etichettati. $\mathcal{L}_{SL}$: Funzione di perdita supervisionata. $\mathcal{L}_{Consistency}$: Perdita che impone regolarità nelle previsioni su $D_U$.
Passo 1
Scrivi la forma generale dell'obiettivo di ottimizzazione totale $\mathcal{L}_{SSL}$, incorporando un coefficiente di pesatura $\lambda$ per il componente di coerenza sui dati non etichettati.
Soluzione:
La forma concettuale della perdita totale SSL è una somma pesata dei due componenti: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Lo scalare $\lambda$ controlla il compromesso tra fedeltà alle etichette e affidamento alla struttura.